Objectifs d'apprentissage
- Exécuter et interpréter les opérations de réduction sur des tenseurs multidimensionnels.
- Formuler la fonction Softmax pour transformer les logits en distributions de probabilité.
- Identifier les problèmes courants de stabilité numérique tels que le dépassement (overflow) et le sous-dépassement (underflow) en virgule flottante.
- Implémenter un Softmax numériquement stable en utilisant le décalage constant et la technique du Log-Sum-Exp.